半年後にAIはいったいどうなっているのか 2025年下半期
👈️ | 半年後にAIはいったいどうなっているのか 2025年上半期
👉️ |
nomadoor.icon
さっぱり分かりません
MLLMと(画像/動画/音声)生成能力が統合されたモデルはたくさん出ると思う
出ると思うけど使われるかどうかは分からない
OmniGen2はFlux Kontextより全然アーキテクチャ優秀だし面白いと思うのだけど、発表の段階でそこそこ優秀でないとそこからカスタムしていこうという流れが出来ない
ゲーム
GameNGenみたいな無からゲームを生み出す系はまだまだ時間がかかりそう
かかりそうといってた動画はすぐ来たのですぐ来るかもしれない
キャラクターにLLMを入れる系は作られてそうでまだ見ないのでぼちぼち出そう
Whispers From The Star然り
動画生成でのメモリ問題解消
されるんでしょうか?
bsahd.icon
Transformer一極支配の時代が終わる
TransformerがSOTAであることには変わり無さそうだが
Diffusion LLMブームが来る?
AR系だとRWKVやHyena, Mamba, S4, RetNetとかTransformer以外も少しづつ流行りだしてる
RWKVはAttention Free Transformerが源流
ComfyUIもRWKVもニッチで面白そうだったというだけで注目してたけど、どっちも独自に成長続けてメインストリームに出てくるようになっててすごい。信念持って続けるのって大事だなぁ…とnomadoor.icon
ComfyUIは画像生成界ではだいぶ人気らしいが、RWKVはオープンモデル界でもまだマイナーな気がするbsahd.icon
morisoba65536.icon
画像周りはひとまずChatGPTが流行らせた「画像を編集する」タスクは当面のトレンドとはなりそう
技術的には動画生成と画像生成は統合に向かっても良さそう(多分Wanチームとかは多少なりと意識してそう)だが、どちらかというとエンドユーザーがそれ(動画モデルが普通に静止画タスクに使えること)をあまり理解できない感があるので流行るかは未知数(個人的には流行ってくれたほうがポージング指定などで動画モデルの知識アドがでかいので嬉しいが)
7月頃からまさかの流行り始めた(単一要因ではないが、高速化やNAGといったインフラ整備が進む、肌の質感がFluxより自然、前述のポージングなどの優位性、周りの独自ライセンスモデルの制限圧強化等色々あってじんわり広がってる感じ)
llmは性能向上面ではアーキテクチャの再考や組み合わせで試行錯誤入るフェーズになるかなぁという感じに予想してる(Reasoningモデルだけでも冒頭ではなく途中でReasoning挟む手法が出てきたりしてる)
DiTのようなある程度複合的なアーキテクチャに進むのか、完全に別アーキテクチャの模索に行くのか、はたまたMetaがチャレンジしたような潜在空間推論などの手法に向かうのか⋯?
llmは用途方面ではエージェント化が進むのはほぼ既定路線と言った感じ(ただ現時点ではベストを目指せるかベターな運用を探すのか、落とし所はちょっと予想しきれない)
https://xenospectrum.com/how-does-ai-see-the-world-neuroscience-reveals-the-decisive-difference-between-humans-and-ai/思わぬところで所謂「中国語の部屋」問題もつきまとい始めたのでこの辺も「7〜8割出来るのに何やっても残り2割を突破しない」みたいな罠が、エージェント化によってより顕著になりそう
良くも悪くもエージェント化とMCPによる連携拡大で用途が増えると「中国語の部屋では問題になること」が可視化される事例は多数出そう